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摘要 : 新 绪 天 文 台 数据 中 心 的 海量 数据 星 表 在 线 交 叉 证 认 服 务 可 实现 远程 URL、 本 地 
上 传 带 有 UCD 信息 的 VOTable 格式 文件 两 种 星 表 数据 输入 方式 ， 可 实现 对 数据 中 心 已 发 布 
的 天 文 数 据 进 行 交 叉 证 认 。 证 认得 到 的 结果 可 以 通过 SAMP 协议 发 送 到 标准 虚拟 天 文 台 工 具 
中 进行 数据 可 视 化 等 相关 处 理 ， 并 支持 HTML, CSV, FITS Table, JSON 等 多 种 数据 输出 方 
式 。 通 过 并 行 计 算 技术 与 伪 球 面 天 区 划分 技术 大 大 提高 了 海量 星 表 数据 的 交叉 证 认 速 度 。 
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随 着 信息 技术 、 制 造 技术 的 快速 发 展 ， 天 文学 已 经 进入 了 全 波段 巡天 观测 时 代 ， 来 自 不 同 天 文 观 
测 设备 的 多 波段 观测 数据 快速 增长 ， 如 何 实现 海量 天 文 数据 的 融合 、 研 究 天 体 在 各 波段 的 特性 ， 是 目 
前 天 文 研究 急需 解决 的 问题 之 一 。 

交叉 证 认 计 算是 多 波段 天 文 观测 数据 融合 的 基础 ， 也 是 多 波段 天 文学 研究 的 前 提 。 交 义 证 认 操 作 
是 典型 的 数据 密集 型 计算 ， 近 年 来 多 国 的 计算 机 专家 在 交叉 证 认 方 面 进行 了 系统 的 研究 并 提出 了 较 好 
的 解决 方案 。 图 灵 奖 获得 者 Jim Gray 曾 是 美国 虚拟 天 文 台 ?" 负 责 交 叉 证 认 问 题 的 首席 科学 家 ， 最 早 提 
出 解决 交叉 证 认 间 题 必须 依靠 并 行 计算 技术 '" S Jim Gray 为 美国 虚拟 天 文 台 设 计 了 基于 微软 SQL 
Server 的 纯 SQL 指令 :2 交叉 证 认 服 务 OpenSkyQuery， 从 而 为 斯 隆 数 字 巡 天 (Sloan Digital Sky Survey, 
SDSS) 的 数据 访问 平台 整合 了 多 家 天 文 台 的 数据 集 。 巾 于 十 年 前 的 计算 机 硬件 性 能 、 内 存 容量 、 软 件 
等 诸多 条 件 限 制 ， 且 当时 提出 的 方法 在 实现 上 受 限 于 MSSQL 数据 库 系 统 ， 交 叉 证 认 的 数据 规模 相对 
较 小 ， 单 次 证 认 的 条 数 限制 在 5 000 条 以 内 。 英 国 虚 拟 天 文 台 ( AstroGrid ) 2 在 其 网 站 上 提供 了 简单 的 
= 交叉 证 认 服 务 "“” ， 但 效率 不 高 且 无 法 实现 大 规模 数据 交叉 证 认 。 目 前 各 大 天 文 数 据 中 心 均 提供 各 自 
= 的 交叉 证 认 服 务 ， 如 VizieR®, Simbad? , Aladin®, NED*4&, 

我 国 近年 来 新 建 了 诸多 天 文科 学 装置 ， 在 观测 选 源 及 数据 处 理 过 程 中 不 得 不 依赖 交叉 证 认 技 术 ， 
国家 重大 科学 工程 郭守敬 望远镜 光谱 确认 过 程 的 核心 就 是 交叉 证 认 。 在 这 样 的 背景 下 ， 我 国 多 位 科技 
工作 者 在 高 效 交 叉 证 认 方 面 取得 了 一 些 成 果 : 文 [9-11] 提 出 了 一 种 基于 HTM 球面 索引 和 KD-Tree 的 
快速 交叉 证 认 算 法 ， 该 方法 的 效率 适用 于 几 十 万 条 到 几 百 万 条 的 中 等 数据 量 。 文 [12] 利 用 Python 多 
核 并 行 方法 大 大 提高 了 交叉 证 认 速 度 。 文 [13] 利 用 贝 叶 斯 假设 检验 相关 方法 对 射电 星 表 交叉 证 认 进 
行 了 尝试 ， 应 用 在 SWIRE 和 ATLAS CDF-S 星 表 证 认 中 ， 并 取得 了 较 好 的 效果 。 


a 
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1 交叉 证 认 原 理 


(1) 距离 公式 
以 图 1 中 的 两 点 4、B 为 例 ， 它 们 分 别 来 源 于 星 表 4 MER B, VERA RAM, 8), (a, 6,)， 
它们 之 间 的 球面 角 距离 d 可 以 按 如 下 步骤 计算 
|a, -a |< 1807, ZANB = |a, - a, | 
|a, -a,| > 180°, ZANB = 360° - |a, - a, | 
根据 球面 余弦 定理 : 
LAOB = cos LAONcos L BON + 
sin L AONsin Z BONcos Z ANB 
= sinÓ,sinÓ, + cosô;cosô cos(a; — a) 
d = ZAOB = arccos[ sinô sinô, + 
cosó,cosó,cos(a, — a.) | 
XA, B 两 点 之 间 角 距离 很 小 时 , 6 = (8, + 6,)/2 
所 以 有 d? = [ (a, - o^) cos |^ + (6, 一 8,)? 
(2) 证 认 成 功 的 判断 公式 
d 7 J/ [(o, - a) cos]? + (8, - 8) 
x 3r +r 
其 中 , m 和 为 两 个 星 表 的 误差 半径 ， 也 就 是 当 两 
点 之 间 的 距离 满足 上 式 时 ， 可 以 认为 两 点 证 认 成 功 ， 
互 为 匹配 的 对 应 体 。 


图 1 球面 两 点 交叉 证 认 原 理 
Fig. 1 Crossmatch principle 


2 德国 天 体 物 理 虚 拟 天 文 台 


新 疆 天 文 台 数据 中 心 以 德国 天 体 物 理 虚 拟 天 文 台 ( German Astrophysical Virtual. Observatory , 
GAVOS ) 为 基础 框架 建设 ， 本 文 涉及 的 交叉 证 认 服 务 是 新 疆 天 文 台数 据 中 心 提 供 的 服务 之 一 。 德 国 天 体 
物理 虚拟 天 文 台 的 实现 遵循 了 国际 虚拟 天 文 台 联盟 ( International Virtual Observatory Alliance, IVOA®) 的 
标准 和 协议 ， 是 德国 天 文学 家 对 扩展 和 使 用 虚拟 天 文 台 做 出 的 贡献 之 一 。 

虚拟 天 文 台 能 够 实现 的 主要 功能 

(1) 通 过 定义 良好 的 标准 及 协议 实现 或 改善 天 体 测 量 学 、 光 度 学 、 光 谱 学 、 时 间 序 列 等 天 文 数据 
的 发 布 与 检索 服务 s 

(2) 使 用 标准 的 数据 检索 与 查询 方式 ， 让 天 文学 家 很 容易 发 现 、 访 问 和 使 用 相关 天 文 观 测 数据 ; 

(3) 确保 数据 不 会 凭空 消失 ， 保 证 正确 地 描述 、 访 问 与 理解 数据 ; 

(4) 提供 虚拟 天 文 台 标 准 软件 帮助 天 文学 家 获取 及 分 析 数 据 。 


3. 伪 球 面 分 区 技术 


伪 球 面 索引 本 质 是 将 天 球 以 特定 几何 形状 进行 区 块 划分 , 将 球面 划分 成 等 面积 或 不 等 面积 的 Y 份 
空间 。 在 建立 索引 时 根据 编码 或 是 坐标 信息 对 天 球面 所 有 区 块 进行 系统 编码 , 并 对 编码 排序 , 在 检索 


CD  http://www.g-vo.org/ 
http ;//www.ivoa.net/ 
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时 首先 以 某 一 赤 经 (RM) 、 赤 纬 (DEC ) 为 基础 计算 所 对 应 的 区 块 , 进而 在 区 块 内 部 再 逐一 比 对 。 通 过 
区 块 划分 及 编码 可 以 实现 真实 的 天 体 目 标 与 球面 区 块 间 的 对 应 关系 , 通过 区 块 的 编码 可 实现 针对 赤 
经 、 赤 纬 二 维 空 间 到 一 维 的 映射 。 目 前 应 用 最 广泛 的 几 种 伪 球 面 索 引 方法 为 分 层 三 角 网 格 @ 
( Hierarchical Triangular Mesh, HTM ), HEALPix® ( Hierarchical Equal Area isoLatitude Pixelisation, 
HEALPix) 及 Q3C9 ( Quad Tree Cube), 

Q3C 是 一 种 新 的 伪 球面 索引 方法 , 是 专 为 开源 数据 库 PostgreSQL 设计 的 一 款 开 源 、 高 效 锥 形 检 
索 、 交 叉 证 认 及 其 它 空 间 搜索 的 索引 模式 ， 源 代码 可 以 从 网 站 获取 到 。 

Q3C 的 天 区 划分 方法 跟 HTM, HEALPix 类 似 , 也 采用 在 伪 球 面 上 划分 四 边 形 实现 天 球 划 分 , 将 一 
球体 假想 为 立方 体 , 在 立方 体 每 个 面 上 构造 一 个 四 叉 树 ,利用 四 叉 树 结构 生成 二 维 坐 标 码 (或 正 整 数 
编码 ) 。 由 于 初始 立方 体 只 有 6 个 面 , 使 用 3 位 二 进 制 数 可 以 编码 与 面 的 映射 关系 。 这 种 划分 很 容易 
实现 立方 体 的 表面 中 心 投影 到 球体 上 ， 四 又 树 结构 也 可 以 自动 被 球体 继承 。 如 图 2 通过 不 同 层次 的 划 
分 最 终 球面 被 划分 成 由 多 个 四 边 形 组 成 的 面 。 这 种 划分 有 两 个 优点 : (1) 该 天 区 划分 方式 及 所 进行 的 
计算 非常 简单 ,因为 球体 和 立方 体 表 面 的 映射 仅仅 是 中 心 投影 电 ， 应 用 的 三 角 函 数 运算 不 多 ; (2) 由 
于 计算 方法 比 HTM 和 HEALPIX 相对 简单 ， 对 于 层级 划分 较 深 时 仍 不 影响 检索 的 性 能 。Q3C 在 四 边 形 
区 域 使 用 了 四 叉 树 结构 及 特殊 表 查 询 加 速 计算 算法 , 使 其 在 多 层级 划分 时 仍 能 保持 良好 的 效率 。Q3C 
在 天 区 划分 方面 有 别 于 HTM 与 HEALPix， 其 划分 的 天 区 面积 不 完全 相同 , 并 非 等 面积 划分 。 

Q3C 索引 方法 将 球面 各 点 一 一 映射 为 整数 ( 称 为 IPIX 值 ) ， 并 确保 某 一 个 点 附近 的 IPIX 值 相差 不 
多 。 这 为 创建 球面 索引 及 在 球体 上 快速 搜索 商定 了 基础 ， 为 了 有 效 地 利用 索引 ， 每 一 次 查询 首先 要 对 
预 匹 配 的 赤 经 、 赤 纬 进行 IPIX 值 计 算 ， 从 而 得 到 相应 划分 位 置 。 如 图 3， 当 确定 了 某 一 小 块 天 区 后 ， 
其 内 每 个 像素 代表 的 IPIX 值 是 连续 的 ， 因 此 满足 条 件 的 数据 可 以 快速 地 从 数据 库 中 获取 。 


图 2 Q3C 天 区 划分 图 3 Q3C 锥 形 检索 @@ 
Fig.2 Q3C Sphere Segmentation Fig.3 Q3C Cone Query 


Q3C 索引 技术 针对 PostgreSQL 开源 数据 库 设计 ， 为 锥 形 检索 、 交 叉 证 认 等 技术 进行 了 优化 ,由 
于 采用 中 心 投影 方式 减少 了 大 量 的 三 角 函 数 计算 ， 从 而 提高 了 检索 效率 ， 本 文 经 过 测试 最 终 选 择 Q3C 
索引 技术 。 


http :// www.skyserver.org/htm/ 

http ://healpix.jpl. nasa. gov/ 

https ;// sourceforge.net/projects/ q3c/ 

https ;// sourceforge.net/projects/ q3c/ 

http :// adsabs.harvard. edu/full/2006ASPC..351..735K 
http :// adsabs.harvard.edu/full/2006ASPC..351..735K 
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4 ”交叉 证 认 实 现 


4.1 数据 服务 器 配置 
新 疆 天 文 台 数据 服务 右 的 配置 如 表 1， 服 务 器 承担 数据 归档 、 发 布 、 检 索 、 下 载 及 各 种 计算 相关 
服务 ， 交 叉 证 认 服 务 是 数据 服务 器 提供 的 诸多 服务 之 一 。 
X1 数据 服务 器 配置 信息 


Table 1 Configuration information of data servers 


配件 规格 参数 数量 
CPU Intel © Xeon © CPU E5-2692 v2@ 2. 20 GHz 2 
内 存 8 GB 8 
硬盘 (0S)SAS 300 GB 2 
硬盘 (DATA) SATA 4TB 12 
主板 Intel Corporation C600/X79 series chipset 1 
附加 网 络 接口 IB Card 56 Gbps 1 


4.2. 交叉 证 认 数据 源 格式 
新 疆 天 文 台 数据 中 心 @@ 交 叉 证 认 服 务 网 址 : http ;//data. xao. ac. cn/cross/q/match/form, 3E 3 iiETA 
服务 名 称 为 “XAO DC Custom Uploading Crossmatcher”， 可 通过 新 疆 天 文 台数 据 中 心 链 接 进 入 服务 。 服 
务 可 实现 本 地 文件 及 远程 URL 两 种 方式 上 传 数据 星 表 ， 对 于 本 地 已 保存 的 VOTable 文件 可 直接 上 传 ， 
对 于 远程 服务 器 上 满足 格式 的 文件 直接 给 出 URL. 即 可 ， 文 件 格 式 可 参考 http ://data.xao. ac. cn/static/ 
cross_match 。 
交叉 证 认 服 务 接受 的 文件 需 严 格 满足 VOTable 格式 ， 其 中 要 指定 赤 经 、 赤 纬 字段 的 UCD 信息 ， 
其 格式 如 下 : 
<? xml version =° 1.0 ? > 
«VOTABLE version =” 1.3” xmlns: xsi = " http://www. w3. org/2001/XMLSchema-instance". xmlns = ” 
http ://www.ivoa.net/xml/VOTable/vl.3" xmlns : stc =” http: //www.ivoa.net/xml/STC/ v1.30" > 
«RESOURCE name =” crossMatchCatalog" > 
«TABLE name =” cross match" nrows=” 5” > 
«DESCRIPTION»Only RA & DEC needed in the table.«/DESCRIPTION» 
«FIELD datatype =” double" name=” ra” ucd=” pos.eq.ra ; meta. main" /> 
«FIELD datatype =” double" name=” dec” ucd=” pos.eq.dec ; meta. main" /> 
«DATA» 
«TABLEDATA» 
«TR» 
«TD2»336.5396994 «/TD» 
«TD» -29.9669121«/TD» 
</TR> 
<TR> 
<TD>340.8337065</TD> 
«TD»-34.8434972«/ TD» 


Qd»  http;//data.xao.ac.cn 
dO  http://www.ivoa.net/documents/ V OTable/20130920/ index.html 
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«/TR» 

«TR» 
«TD»340.8296062 «/TD» 
«TD» -34.4649278«/ TD» 

«/TR» 

«TR» 

«TD»340.8304808 </TD> 
«TD»-34.4992970«/ TD» 

«/TR» 

«TR» 
«TD»340.0254577 «/TD» 
«TD»-30.8180950«/ TD» 


«/TR» 
«/TABLEDATA» 
«/DATA» 
</TABLE> 
«/ RESOURCE» 
co «/VOTABLE» 
LER TABLEDATA 字段 代表 具体 要 进行 交叉 证 认 源 的 位 置信 息 ， 至 少 要 包含 某 个 源 的 赤 经 、 赤 纬 坐 


— 标 。 例 子 中 给 出 了 5 个 源 的 具体 信息 ， 实 际 在 证 认 过 程 中 可 以 根据 需要 适当 修改 。 
-— 4.3 交叉 证 认 页 面 
N 新 疆 天 文 台数 据 中 心 交 叉 证 认 服 务 吕 目前 只 支持 较 新 的 浏览 器 访问 ， 对 于 E 浏览 器 需 关 闭 兼容 
视图 。 如 图 4， 交叉 证 认 前 台 页 面 由 几 部 分 组 成 ， 其 中 最 左 侧 菜单 内 容 为 链接 与 交叉 证 认 服 务 的 基本 
音 息 ， 图 中 右上 部 分 为 服务 的 说 明 ， 简 单 介 绍 了 服务 性 质 及 所 人 允许 的 上 传 文件 信息 Tables available 
for ADQL 链接 可 以 查看 数据 中 心 支持 ADOL 服务 的 所 有 表 信 息 service info 链接 可 以 查看 针对 交叉 证 
认 服 务 的 相关 信息 。 
在 服务 中 包含 Local file, Remote URL, Target Table, Search radius, Table, Output format 等 6 个 
as 字段 。 其 中 Local file, Remote URL 两 个 字段 代表 输入 源 ， 文 件 格式 为 VOTable。Local file 支持 本 地 文 
- ft Ef£, Remote URL 支持 给 定 的 远程 URL X fF, Target Table 字段 指 在 数据 中 心 已 发 布 且 支持 ADQL 
i 表 的 集合 ， 可 以 根据 需要 选择 星 表 进 行 匹配 。Search radius 字段 代表 搜索 半径 ， 可 根据 交叉 匹配 的 两 
个 星 表 的 误差 半径 给 出 具体 搜索 半径 值 。 可 参考 公式 3Vr tr 确定 搜索 半径 ， 其 中 7+,，7, 为 两 星 表 
的 误差 半径 。Table 字段 后 面 的 Limit to 代表 匹配 成 功 后 浏览 带 页 面 输出 数据 条 数 ， 这 个 数值 不 宜 调 得 
过 大 ， 因 为 数据 返回 量 大 时 严重 影响 浏览 器 响应 时 间 ， 默 认 Limit to 值 为 100， 如 果 匹 配 成 功 数据 条 
数 超 过 限制 值 ， 用 户 可 根据 需要 自行 调整 。Output format 字段 代表 匹配 成 功 数 据 输出 的 数据 格式 ， 目 前 
支持 HTML、Text VOTable, JSON, FITS Table, CSV 格式 输出 ， 具 体 数 据 输出 格式 可 根据 需要 调整 。 
在 图 4 中 Remote URL 指定 http ;//data. xao. ac. cn/static/cross, match, Target Table 中 指定 ppmxl. 
main ( 星 表 记录 数 10 亿 条 左右 ) 星 表 为 目标 星 表 ，Table 中 Limit to 给 定 限 制 为 1 000, Search radius 限 
定 0. 001°, Output format 中 指定 HTML 输出 格式 。 参 数 确定 后 点 击 GO 按钮 ， 可 得 到 图 S 所 示 共 匹配 
成 功 757 条 数据 及 相应 的 参数 信息 。 点 击 Quick Plot 可 实现 图 6 的 数据 可 视 化 ， 绘 图 操作 可 自行 选择 
字段 及 所 绘 点 的 样式 ， 点 击 Send via SAMP 可 将 结果 发 送 到 标准 虚拟 天 文 台 工具 "(如 TOPCAT) 中 ， 
进行 数据 再 处 理 。 


DD  http://data.xao.ac.cn/cross/q/match/form 
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€ > Q | dataxao.ac.cn/cross/q/match/form 


Data updated 


Try ADQL to query our 
data. 


XAO DC Custom Uploading Crossmatcher 


This service lets you upload VOTables and crossmatch them against 
various tables in the DC. The selection below corresponds to the 

(see there for explanations what the 
tables are). 


See the service info for more information on what input the service 
expects. 


Local file 选择 文件 | 未 选择 任何 文件 
A local file to upload (overrides remote table if given). 


Remote URL —  nttp://data.xao.ac.cn/static/cross match 
A URL fora table to crossmatch. 


Target Table ppmxl.main a 
Name of the table to match against. 


Search radius |0.001 
[ Search radius in crossmatch 


Table Limit to items. 
Output format HTML "| 


四 


图 4 交叉 证 认 页 面 
Fig.4  Crossmatch page 


作 期 刊 


14 卷 


| 


co ed 
LE 
we | 


Try ADQL to query our 
4 


* Local file: File upload " 

+ Remote URL: http://data.xao.ac.cn/static/cross match 
e Search radius: 0.001 

* Target Table: ppmxl.main 


Result 
Matched: 757 


Send via SAMP | Quick Plot 


Id RA Dec E raepra E deepde PM(RA) 
[deg] [deg] [deg] [deg] [deg/yr] 


1270486784963202545 335.159448 -28.396266 3.69e-05 3. 1.1647e-05 


1270486784963202545 335.159448 -28.396266 3.69e-05 3. 1.1647e-05 


1271723434119163981 336.874314 -28.562427 4.53e-05 4. 3.4861e-06 


1271723434119163981 336.874314 -28.562427 4.53e-05 4. 3.4861e-06 
1272238947138844943 338.898195 -27.889961 4.53e-05 4. -1.5117e-05 


1272238947067022759 338.898547 -27.889473 3.69e-05 3. -1.8022e-05 


PM(Dec) 
[deg/yr] 


-5.3861e-06 
-5.3861e-06 
6.8306e-06 


6.8306e-06 
-1.8694e-06 
1.4861e-06 


Err. 


#obs 


PM(RA) PMDec) 
[deg/yr] [deg/yr] 


2.17e- 
06 


2.17e-06 3 


2.17e-06 3 


2.17e-06 2 


2.17e-06 2 
2e-00 2 
1.81e-06 3 


图 5 匹配 结果 
Fig. 3 Crossmatch Results 
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' [D XAO DC Custom Uploac x 


X 
mi 


D data.xao.ac.cn/cross/q/match/form 


E XAO DC Custom Uploading Crossmatcher 


Parameters 


PM(Dec) Err. Err. s 
[deg/yr] PM(RA) PM(Dec) 
[deg/yr] [deg/yr] 


06 ^. 247e-06 3 


06 ” 247e-06 3 


06 2.17e-06 2 


150 200 2.17e-06 2 


v|w[De — v ]using Points v .8694e-06 2e06 2e06 2 


ne —.  181e-06 3 


图 6 匹配 结果 可 视 化 


Fig.6 Results visualization 
4.4 认证 结果 比较 
国内 近 几 年 在 交叉 证 认 方 面 的 研究 成 果 详 见 文 [11-13,15] ， 
线 的 测试 平台 ,数据 直接 从 文献 中 引用 ,具体 测试 结果 见 表 2。 
表 2 证 认 结 果 比 较 


Table 2 Cross-match results comparison 


由 于 文献 中 提供 的 方法 没有 提供 在 


星 表 4( 行 ) 星 表 B( 行 ) 分 割 方法 耗 时 /min 
高 丹 等 人 程序 811117 470992970 HTM(10 级 ) 407 
裴 彤 等 人 程序 811117 470992970 HTM(6 级 ) 2 
本 文 程序 800000 470992970 Q3C(29 级 ) «1 
裴 彤 等 人 程序 100106811 470992970 HTM(8 级 ) 10 
赵 青 等 人 程序 100106811 470992970 HEALPix 32 
本 文 程序 103319647 910468688 Q3C(29 级 ) <8 


4.5 交叉 证 认 实 验 结果 分 析 

对 于 图 4 规模 的 交叉 证 认 时 间 返 回 值 大 概 为 0. 001 ms, 采用 Q3C 29 级 划分 及 并 行 计算 技术 ， 大 
大 加 快 了 匹配 速度 。 综 合 分 析 表 2 结果 ， 本 文 实现 的 在 线 交 叉 证 认 平台 效率 要 明显 高 于 同行 结果 。 在 
数据 服务 器 上 提供 4000, 20000 条 记录 的 VOTable 文件 供 同行 测试 ， 由 于 服务 器 负载 情况 限制 在 数 
据 量 大 时 ( 源 星 表 数 据 超过 50 万 行 ， 或 数据 文件 超过 20 MB, ， 匹 配 10 亿 量 级 星 表 ) 匹配 时 间 可 能 达到 
分 钟 量 级 ， 这 取决 于 上 传 星 表 时 间 及 网 络 带宽 ， 在 本 地 服务 器 上 测试 过 程 中 两 个 操作 的 浏览 器 返回 时 
间 均 在 秒 量 级 ， 文 件 名 分 别 为 cross_match cross. match, 20000, 
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实现 了 国内 首 个 在 线 交 又 证 认 平 台 ， 新疆 天 文 台数 据 中 心 在 线 交 又 证 认 服 务 支 持 本 地 上 传 及 
URL 两 种 源 表 文 件 输入 方式 ， 文 件 输入 支持 标准 的 VOTable 格式 。 在 数据 中 心 已 发 布 的 星 表 均 可 以 
作为 交叉 证 认 的 目标 星 表 ， 在 证 认 中 提供 了 搜索 半径 选项 方便 同行 测试 ， 支 持 多 种 证 认 结 果 数 据 输出 
格式 。 通 过 伪 球 面 天 区 划分 技术 与 并 行 计算 技 术 大 大 提高 了 交叉 证 认 速 度 ， 使 万 量 级 对 亿 量 级 的 星 表 
证 认 时 间 消 耗 在 毫秒 量 级 。 

致谢 : 感谢 天 文学 科技 领域 云 项 目 成 员 对 新 疆 天 文 台数 据 中 心 建设 的 支持 。 数 据 中 心 测试 与 数据 
的 预 处 理 在 新 疆 天 文 台 Taurus 高 性 能 计算 系统 上 完成 。 


参考 文献 : 


[1] 


[2] 


[3] 


[9] 


Nieto-Santisteban M A, Thakar A R, Szalay A S. Cross-matching very large datasets [ C/OL ]. 
https ://esto.nasa.gov/ conferences/nstc2007/ papers/ Nieto-Santisteban, Maria A10P2. NSTC-07- 
0074.pdf. 

Gray J, Szalay A, Fekete G. Using table valued functions in SQL Server 2005 to implement a 
spatial data library [ J/OL ]. https;//arxiv.org/ftp/cs/papers/0701/0701 163.pdf. 

Gray J, Nieto-Santisteban M A, Szalay A S. The zones algorithm for finding points-near-a-point 
or cross-matching spatial datasets [ J/OL]. (2007) [2016-09-09]. https ;//arxiv.org/ftp/cs/ 
papers/0701/0701171.pdf. 

Gray J, Szalay A S, Thakar A R, et al. There goes the neighborhood; Relational algebra for 
spatial data search | J/OL ]. https ;//arxiv.org/ftp/cs/ papers/0408/0408031 pdf. 

Gray J, Szalay A, Budavári T, et al. Cross-matching multiple spatial observations and dealing 
with missing data [ J/OL ]. https ;//arxiv.org/ftp/cs/papers/0701/0701172. pdf. 

Joins S, Revisted S I. Technical report of AstroGrid [ J/OL ]. http://wiki. astrogrid. org/bin/ 
view/ Astrogrid/ SpatialIndexing. 

Zhao Q, Sun J, Yu C, et al. A paralleled large-scale astronomical cross-matching function [C]. 
International Conference on Algorithms and Architectures for Parallel Processing. Springer Berlin 
Heidelberg, 2009: 604-614. 

Rajendra Bose, Robert G. Mann, Diego Prina-Ricotti, AstroDAS:; Sharing Assertions across Astronomy 
Catalogues through Distributed Annotation, Proceedings of the International Provenance and 
Annotation Workshop [J]. Chicago, 2006(4145) : 193-202 

高 丹 , KER, RKE. 海量 多 波段 星 表 数 据 的 交叉 证 认 的 实现 【可 ]. 天 文 研究 与 技术 一 一 
家 天 文 台 台 刊 ,2005, 2(2) : 186-193. 

Gao Dan, Zhang Yanxia, Zhao Yongheng. The realization of crossOidentification based on huge 


Publications of 


multi-wavelength catalog data [ J]. Astronomical Research and Technology 
National Astronomical Observatories of China, 2005, 2(2) : 186-193. 

Gao Dan. A system integrated with query, i a a and visualization [J]. SPIE The 
International Society for Optical Engineering, 2006 (6274) : 

aF, KER, 赵 永 恒 . 中 国 虚 拟 天 文 台 ep sa 开发 和 应 用 [J]. 天 文学 报 ， 
2008, 49(3): 348-358. 

Gao Dan, Zhang Yanxia, Zhao Yongheng. The development and application of the cross-match 
tool of China-VO [J]. Acta Astronomica Sinica, 2008, 49(3) : 348-358. 


3 期 


[12] 


[13] 


[14] 


[15] 


张 海 龙 等 : 新 疆 天 文 台 在 线 交 叉 证 认 服务 355 


KW, IKE E, Sa, F. Python 多 核 并 行 计算 在 海量 星 表 交 又 证 认 中 的 应 用 [I]. 中 
国 科学 物理 学 力学 天 文学 , 2011, 41(1) : 102-107. 

Pei Tong, Zhang Yanxia, Peng Nanbo, et al. The application of multi-core parallel computing 
using python language in cross-matching of massive catalogues [J]. Scientia Sinica Physica, 
Mechanica & Astronomica, 2011, 41(1) : 102-107. 

Fan Dongwei, Budav S T R, Norris P R, et al. Matching radio catalogs with realistic geometry : 
application to SWIRE and ATLAS [J]. Monthly Notices of the Royal Astronomical Society, 
2015, 451(2) : 1299-1305. 

TK, Markus Demleitner, 王 娜 . 新 给 天 文 台 脉 冲 星 数据 检索 [I]. 天 文 研究 与 技术 ， 
2016, 13(4) : 473-480. 

Zhang Hailong, Markus Demleitner, Wang Na. Using the Xinjiang Astronomical Observatory 
pulsar data archive [J]. Astronomical Research & Technology, 2016, 13(4) : 473—480. 
赵 青 . 面向 海量 数据 的 高 效 天 文 交 叉 证 认 的 研究 [D]. KÆ: 天 津 大 学 , 2010. 


Xinjiang Astronomical Observatory Data Center Custom 
Uploading Crossmatcher 


Zhang Hailong'^, Nie Jun'^, Zhao Qing’, Ye Xinchen', Wang Jie! 


(1. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Urumqi 830011, China, Email; zhanghailong(? xao.ac.cn ; 


2. Key Laboratory of Radio Astronomy, Chinese Academy of Sciences, Nanjing 210008, China; 
3. Tianjin University of Science & Technology, Tianjin 300222, China) 


Abstract; Xinjiang Astronomical Observatory ( XAO) data center is infrastructure for scientific research 


needs in astronomy and provides scientific data service. The online custom uploading crossmatcher service of 


XAO data center accepts two kinds of inputs, remote URL and uploading the local file which must meet the 


requirements of VOTable format and contain the Unified Content Descriptors ( UCD). Identified results can be 


sent to the standard Virtual Observatory tools for data visualization and other related processing via Simple 
Application Messaging Protocol ( SAMP ). The crossmatcher supports HTML, CSV, FITS Table and JSON, 


etc. data output formats. By using Q3C sky indexing scheme and parallel computing technologies, the 


crossmatch efficiency is increased greatly. 


Key words: Data center; Virtual Observatory ; Crossmatch ; Catalog 


